机器学习:信用风险建模中的挑战,教训和机遇
笔者邀请您,先思考:
1 如何量化信用风险?
2 机器学习如何服务信用风险?
由于数据可用性和计算能力的快速增长,机器学习现在在技术和业务中发挥着至关重要的作用。机器学习对信用风险建模应用程序有重大贡献。 使用两个大型数据集,我们分析了一组机器学习方法在评估中小型借款人的信用风险方面的表现,其中穆迪分析RiskCalc模型作为基准模型。 我们发现机器学习模型提供了与RiskCalc模型相似的准确率。 但是,它们比RiskCalc模型更像是一个“黑匣子”,机器学习方法产生的结果有时难以解释。 机器学习方法可以更好地拟合解释变量与违约风险之间的非线性关系。 我们还发现,无论使用何种模型,使用更广泛的变量来预测默认值都会大大提高准确率。
介绍
机器学习是一种教授计算机解析数据,从中学习,然后对新数据做出决定或预测的方法。该机器不需要手动编码一组特定的指令来完成特定的任务,而是使用大量的数据和算法来“训练”机器,以学习如何执行任务。机器学习与其低调的姊妹领域统计学习重叠。两者都试图从大型数据集中发现并学习模式和趋势来进行预测。机器学习领域具有悠久的开发传统,但最近数据存储和计算能力的提高使它们在许多不同领域和应用中无处不在,其中许多领域和应用都非常普遍。苹果的Siri,Facebook的feed和Netflix电影推荐都依赖于某种形式的机器学习。机器学习的最早用途之一是信用风险模型,其目标是使用财务数据来预测违约风险。
当企业申请贷款时,贷方必须评估企业是否能够可靠地偿还贷款本金和利息。贷款人通常使用盈利能力和杠杆作用来评估信用风险。盈利公司会产生足够的现金来支付利息费用和本金。然而,杠杆率更高的公司拥有较少的资产可用来应对经济冲击。给定两个贷款申请者 - 一个具有高盈利能力和高杠杆率,另一个具有低盈利能力和低杠杆率 - 那个公司信用风险较低?当银行在信用风险评估过程中纳入他们检查的许多其他维度时,回答这个问题的复杂性就会增加。这些额外维度通常包括其他财务信息(如流动性比率)或行为信息(例如贷款/交易信用支付行为)。总结所有这些不同的维度到一个分数是具有挑战性的,但机器学习技术有助于实现这一目标。
机器学习和传统统计学习工具背后的共同目标是从数据中学习。这两种方法都旨在通过使用训练数据集来调查潜在的关系。通常,统计学习方法假设变量之间存在数学方程的形式关系,而机器学习方法可以从数据中学习,而不需要任何基于规则的编程。由于这种灵活性,机器学习方法可以更好地适应数据中的模式。图1说明了这一点。
图1 统计模型VS. 机器学习
在这个模拟示例中,第一个图表显示了数据点基于X和Y的实际分布,而红色的点则被分类为默认值。 我们可以把它和地理地图联系起来,其中X轴是经度,Y轴是纬度。 红色区域代表高风险人口统计,我们看到更高的违约率。 如预期的那样,线性统计模型不适合这种复杂的非线性和非单调行为。 随机森林模型是一种广泛使用的机器学习方法,具有足够的灵活性来识别热点,因为它不限于预测线性关系或连续关系。 机器学习模型不受传统统计模型的一些假设限制,可以产生更好的人类分析师无法从数据中推断出的洞察力。 在此,预测与传统模型形成鲜明对比。
机器学习模型不受传统统计模型的一些假设限制,可以产生更好的人类分析师无法从数据中推断出洞察力。
机器学习方法
现在让我们看看三种不同的机器学习算法:人工神经网络,随机森林和提升。
人工神经网络
人工神经网络(ANN)是生物神经网络的数学模拟。 它的简单形式如图2所示。在这个例子中,有三个输入值和两个输出值。 不同的转换将输入值链接到隐藏层,将隐藏层链接到输出值。 在底层数据上,我们使用反向传播算法来训练人工神经网络。由于许多隐藏层和神经元的存在,神经网络可以很容易地处理解释变量的非线性和交互效应。
图2 人工神经网络
随机森林
随机森林结合了决策树预测器,使得每棵树依赖于独立采样的随机向量的值,并且具有相同的分布。决策树是随机森林的最基本单位。在决策树中,输入被输入到顶部,并且当它遍历树时,数据被分成越来越小的子集。在图3所示的例子中,树决定了基于三个变量的违约概率:公司规模;利息,税收,折旧和摊销前利润(EBITDA)与利息费用的比率;以及流动负债与销售额的比率。方框1包含初始数据集,其中39%的公司是违约者,61%是非违约者。 EBITDA利息支出比率低于2.4的公司进入方框2.方框2占总数的33%,其中100%由违约者构成。其橙色表示较高的违约风险,而蓝色表示较低的违约风险。随机森林方法结合了许多树的预测,并且最终决策基于独立的决策树的输出的平均值。在这个练习中,我们使用几棵树的bootstrap聚合作为一个简单的基于树的模型的改进。
图3 随机森林
BOOSTING
Boosting类似于随机森林,但基础决策树是根据其性能加权的。考虑一下盲人和大象的寓言,其中要求男人触摸大象的不同部位,然后构造完整的图像。盲人分成六批发送。第一组被引导到随机选择的点,并且每个人的(部分)描述评估它与实际描述的匹配程度。这个小组恰好给出了只有躯干的准确描述,而对身体其他部分的描述是不准确的。注意到不完整的部分,当第二批盲人进入房间时,他们被引导到这些部分。剩下的批次重复这个过程。最后,通过按照它们的精确度对这些描述进行加权组合,并且在这种情况下也将身体部位的尺寸加以组合。最后的描述 - 组合 - 很好地描述了大象。
在Boosting中,每一个决策树都与一群盲人相似,对大象的描述与解决预测问题是同义的。如果一棵树将违约者误认为是非违约者,反之亦然,那么随后的树会对错误分类的观察结果给予更多的重视。这种给错误分类区域增加权重(或在发送新组时增加方向)的想法是随机森林和增强之间的差异。
穆迪分析风险计算模型
RiskCalc模型通过估计一组风险驱动因素的影响,为私营公司产生预期违约概率。它利用广义加性模型(GAM)框架,在这个框架中,每个风险驱动因素的非线性变换被分配权重并合并成一个单一的分数。链接函数然后将组合得分映射到违约概率。
RiskCalc模型在预测私人公司违约时提供强大的表现。但是它与其他机器学习技术相比如何?我们使用三种流行的机器学习方法来基于RiskCalc样本作为训练集开发新模型。我们试图回答以下问题:机器学习模型在默认预测中是否优于RiskCalc模型的GAM框架?当使用机器学习方法进行信用风险建模时,我们面临的挑战是什么?哪个模型最健壮?哪种模型最容易使用?我们可以从替代模型中学到什么?
结果
数据描述
为了分析这三种方法的表现,我们考虑两个不同的数据集。 第一个数据集来自穆迪分析信用研究数据库(CRD),该数据库也是RiskCalc US 4.0企业模型的验证样本。 它只利用公司的信息和财务比率。 第二个数据集添加行为信息,其中包括信用额度使用情况,贷款支付行为和其他贷款类型数据。 这些信息来自贷款会计系统(LAS),作为CRD的一部分收集。 我们想要使用机器学习技术和GAM方法测试两种数据集的违约预测能力。 图4显示了这两个数据集的总结。
图4 数据信息
模型性能
对于这两个数据集,我们使用GAM模型的排序能力作为基准。 我们使用准确率(AR)统计来衡量等级排序能力。 图5显示了一组解释变量。
图5 PD模型的输入可变描述
交叉验证
由于机器学习提供了高水平的建模自由度,因此往往会过度使用数据。 如果模型在训练数据上表现良好,但在评估数据上表现不佳,则模型过拟合了。 寻找样本外预测误差的标准方法是使用k-fold交叉验证(CV)。 在k倍CV中,数据集被分成k个子集。 k个子集中的一个用作测试集,其他k-1个子集合成一个训练集。 这个过程重复k次。 如果训练样本相对于测试样本的精度比(模型性能的度量)较高,则表示过度拟合。 在这种情况下,我们对模型施加更多限制并重复交叉验证,直到结果令人满意。 在这个例子中,我们使用了五重交叉验证。 图6报告了五次试验的平均AR。
图6 模型性能
我们观察到,对于两个数据集,机器学习模型都比GAM模型好2到3个百分点。无论建模方式如何,当我们添加贷款行为信息时,准确率提高8到10个百分点。信用额度使用和贷款支付信息可以补充财务比率,并显着提高模型预测违约的能力。
机器学习在哪里胜出
机器学习方法在捕获非线性关系方面特别有效。我们来仔细看看EBITDA与利息费用比率。直观地说,这个比率与违约风险有非线性关系。在图7中,我们将比率划分为50个百分点,并计算预测违约概率(PD)和实际违约率的平均值。我们用x轴上的百分比与y轴上的默认率(以%表示)进行绘制。违约率随着息税折旧摊销前利润与利息费用比率的增加而下降。但是,在左侧,EBIDTA变为负值时会出现拐点。当EBITDA为负时,由于利息支出减少使得比率更负,所以违约风险应该降低。从图中我们可以看出,机器学习提升方法比GAM模型更准确地预测实际违约率,特别是在左侧。我们也观察到来自其他比率图的类似行为。因此,我们观察到机器学习方法的适度改进预测。
图7 基于EBITDA的不同价值与利息支出比较机器学习和GAM PD水平
过拟合问题
尽管使用交叉验证来尽量减少过度拟合,但机器学习模型仍可能产生难以解释和捍卫的结果。 图8显示了两种情况,其中由增强方法确定的PD与由GAM方法确定的PD明显不同。
图8 机器学习算法的过拟合问题
在案例1中,资产回报率(ROA)低,现金与资产比率低,债务与资本比率高的公司被归类为安全,隐含评级为A3。直观地说,正如GAM所预测的那样,该公司的PD应该反映更高的风险水平。类似地,案例2中,利息支出高,资产回报率高,留存收益高的公司利用助推方法归类为Caa / C。在这两种情况下,底层算法的复杂性使得难以解释boosting方法的非直观PD。基于GAM模型的RiskCalc模型的结果更直观,更易于解释。
总结
本练习使用RiskCalc软件的GAM模型作为基准分析三种机器学习方法的性能。机器学习方法可提供与GAM模型相当的准确率。与RiskCalc模型相比,这些替代方法更适合捕获信用风险常见的非线性关系。同时,由于其复杂的“黑盒子”性质,这些方法所做的预测有时难以解释。这些机器学习模型对异常值也很敏感,导致数据过度拟合和违反直觉的预测。此外,也许更有趣的是,我们发现扩展数据集以包含贷款行为变量可以使所有建模方法的预测能力提高10个百分点以上。
虽然我们研究的方法都有其优点,并且具有可比较的准确性水平,但我们相信,为了提高默认预测准确性并扩大信用风险建模领域的总体范围,我们应该将重点放在数据维度上。除财务报表和贷款支付行为数据外,交易数据,社交媒体数据,地理信息和其他数据等附加信息可能会增加大量的洞察力。我们必须收集更多不同的非传统数据,以进一步完善和改进我们评估风险的方法。
作者: Dinesh Bacham, Dr. Janet Zhao
原文链接:
https://www.moodysanalytics.com/risk-perspectives-magazine/managing-disruption/spotlight/machine-learning-challenges-lessons-and-opportunities-in-credit-risk-modeling
更多精彩,戳这里: